HQTrack | 阿里达摩院 & 大连理工联合发布 AI 框架 | 实现高精度视频多目标跟踪

Original 灵度智能灵度智能

2024-09-10

“Tracking Anything in High Quality”

近日，阿里达摩院宣布与大连理工大学合作，推出一款名为 HQTrack 的 AI 框架。该框架主要由视频多目标分割器（VMOS）和掩模优化器（MR）组成，旨在“实现对视频中任何目标的高质量跟踪”。

研究团队表示，HQTrack 基于开源框架 DeAOT、HQ-SAM，在此之上进行了一定改进，实现了“在视频中分割各目标”的可能性。框架可以应用于人脸识别、智能驾驶、监控追踪等领域，并有望在未来商业应用中落地。

论文地址：https://arxiv.org/pdf/2307.13974v1.pdf

Github地址：https://github.com/jiawen-zhu/hqtrack

摘要

本报告提出了HQTrack，一个用于高质量跟踪视频中任何物体的框架。HQTrack主要由视频多目标分割器（VMOS）和掩模优化器（MR）组成。VMOS将初始帧中要跟踪的物体的掩模传播到当前帧。为了进一步提高跟踪掩模的质量，使用了预训练的MR模型来优化跟踪结果。在Visual Object Tracking and Segmentation（VOTS2023）挑战中，HQTrack在不使用任何技巧的情况下，排名第二。

简介

视觉目标跟踪是计算机视觉中的基本任务之一，对于机器人视觉和自动驾驶等领域至关重要。该任务旨在在视频序列中持续定位指定的对象。视觉目标跟踪挑战吸引了很多关注，并有许多最先进的算法参与展示其尖端性能。视觉目标跟踪和分割挑战放宽了对约束的要求。VOTS2023是一个考虑到广泛背景下的目标跟踪挑战，将短期和长期、单目标和多目标跟踪与分割合并，只使用分割来指定目标位置，这带来了更多的挑战，如理解目标之间的关系、多目标轨迹跟踪、准确的掩模估计等。

视觉目标跟踪在深度学习技术的帮助下取得了很大进展，其中Transformer是目前主流的跟踪方法。传统方法可以分为在线更新跟踪器和Siamese跟踪器。最近，一些跟踪器采用了纯Transformer架构，将特征提取和模板搜索区域交互完成在一个骨干网络中，跟踪性能得到了提升。然而，仅仅使用单一目标跟踪器并不适合VOTS2023挑战。

视频对象分割旨在在视频序列中分割出感兴趣的特定对象。与VOT类似，半监督视频对象分割也在第一帧手动提供注释。主要区别在于VOS任务提供了更精细的掩码注释。早期的VOS方法通过运动线索在视频帧之间传播对象掩码，或者采用在线学习策略。最近，时空记忆（STM）网络从存储库中提取时空上下文，以处理外观变化和遮挡，为半监督视频对象分割提供了有希望的解决方案。对于多对象分割，这些方法逐个分割对象，最终结果是通过后续集成合并的掩码。AOT 提出了一种可以同时编码、匹配和分割多个对象的识别机制。基于AOT，DeAOT 将对象无关和对象特定的嵌入从之前的帧到当前帧解耦，进一步提高了VOS的准确性。

VOTS2023挑战赛中，长序列、目标出现和消失、快速运动、遮挡、干扰和小目标等问题使得跟踪任务更加困难。需要跟踪器能够适应目标外观的剧烈变化和环境变化，并解决内存空间问题。

本文提出了HQTrack，包括视频多目标分割器（VMOS）和掩模细化器（MR）。VMOS采用改进的DeAOT和Intern-T，使用1/8比例的GPM和固定长度的长期记忆，同时使用HQ-SAM模型进行跟踪掩模的细化。最终跟踪结果来自VMOS和MR。

HQTrack在VOTS2023测试集上获得了0.615的质量分数，成为VOTS2023挑战赛的亚军。

方法

Pipeline

HQTrack是一个视频目标跟踪算法，使用VMOS进行目标分割，HQ-SAM进行分割结果的优化，最后使用掩码选择器选择最终结果。

视频多目标分割(Video Multi-object Segmenter, VMOS)

VMOS是DeAOT的一种变体，DeAOT是VMOS的基线。本文首先简要回顾了DeAOT，然后深入探讨了VMOS的设计。

DeAOT是一个视频对象分割模型，采用AOT类似的分层传播机制，并提出了双分支门控传播模块（GPM）来解决深层传播中丢失物体无关视觉信息的问题。GPM是一个高效的模块，具有单头注意力，用于构建分层传播。同时，DeAOT提出了一个识别机制，将多个对象关联到一个统一的嵌入空间中，从而能够处理单个传播中的多个对象。

VMOS是HQTrack中的视频多目标分割器，是DeAOT的变体。为了提高分割性能，特别是对于小目标的感知，VMOS将GPM级联到8倍尺度，并将传播过程扩展到多个尺度。考虑到内存使用和模型效率，VMOS只使用上采样和线性投影将传播特征放大到4倍尺度。多尺度传播特征将与多尺度编码器特征一起输入解码器进行掩码预测。Internimage是一种新的大规模基础CNN模型，采用可变形卷积作为核心运算符，在图像分割方面表现出色。VMOS使用Intern-T作为编码器来增强物体辨别能力，可以完成多种代表性任务，如目标检测和分割。

Mask Refiner (MR)

HQ-SAM是SAM方法的一种变体。同时提供了HQ-SAM的使用方法。

SAM和HQ-SAM是图像分割领域的热门模型。SAM通过使用包含11亿个标注掩码的高质量数据集进行训练，扩大了分割模型的规模。SAM还通过不同的提示格式实现了灵活的人机交互机制。然而，当处理包含复杂结构对象的图像时，SAM的预测掩码往往不够准确。为了解决这个问题并保持SAM的原始设计、效率和零样本泛化能力，Ke等人提出了HQ-SAM。HQ-SAM在预训练的SAM模型中引入了一些额外的参数，通过将学习输出令牌注入SAM的掩码解码器来获得高质量的掩码。

MR。HQTrack使用HQ-SAM作为我们的掩码细化器，将VMOS的预测掩码作为输入。由于VMOS模型是在受限的数据集上训练的，因此我们使用MR来提高掩码的质量。我们使用VMOS生成初步的遮罩，然后使用大规模训练的分割算法对其进行细化，以提高性能。最终的输出遮罩是从VMOS和HQ-SAM的遮罩结果中选择的。为了避免HQ-SAM重新预测目标对象，设置了IoU阈值。

实现细节

VMOS中使用InternImage-T 作为图像编码器的骨干，以在准确性和效率之间进行权衡。16×和8×比例的GMP层数设置为3和1。4×比例的层数未提及。视频目标分割器的特点，包括使用上采样和投影特征、长短时记忆等技术来处理长期视频序列中的目标外观变化，并使用固定长度的长期记忆来节省内存使用。

模型训练。VMOS的训练过程分为两个阶段。第一阶段使用静态图像数据集生成的合成视频序列进行预训练，第二阶段使用多目标分割数据集进行训练。训练数据集包括DAVIS、YoutubeVOS、VIPSeg、BURST、MOTS和OVIS。使用2个NVIDIA Tesla A100 GPU进行训练，初始学习率分别为4×10−4和2×10−4。学习率按照多项式方式逐渐衰减到1×10−5。

推理。我们的推理过程与我们的流程描述一致，不使用任何测试时间增强（TTA），如翻转、多尺度测试和模型集成。

实验

消融分析

单独跟踪 vs. 联合跟踪。单独跟踪是为每个目标对象初始化一个单独的跟踪器，并多次运行推理以进行多目标跟踪。联合跟踪是同时跟踪所有目标对象。通过比较联合跟踪和分离跟踪的表现，发现联合跟踪表现更好，可能是因为联合跟踪可以更好地理解目标之间的关系，从而提高跟踪器对干扰的鲁棒性。

VMOS的组件分析。本文对VMOS进行了组件分析，发现使用InternImage-T代替ResNet50可以提高AUC得分，加入多尺度传播机制后，AUC得分提高了3.9%，证明了其有效性。

长期记忆缺口。为了适应VOTS视频序列较长的情况，研究人员对长期记忆间隔参数进行了调整，发现50的记忆间隔表现最佳。

Mask Refiner分析。通过比较VMOS和VMOS + SAM的结果，发现SAM可以显著提高分割掩模的质量，但对于低质量的掩模，SAM会降低性能。因此，提出了一种选择VMOS和SAM结果的方法，通过计算IoU分数来选择最终输出。在VOTS2023验证集上评估了阈值τ的影响，发现τ= 0.1的效果最好，因此在HQTrack中选择了这个设置。

挑战的结果

将VMOS编码器从ResNet50替换为InternImage-T后，AUC得分提高了3.2%。使用SAM H来优化VMOS的掩码。在VOTS2023测试集上的结果见表5。使用HQ-SAM H作为我们的掩膜细化模块后，AUC得分提高了1.4%，达到了0.615，超过了VMOS 0.9%。通过图4的质量对比，我们可以看到MR的处理结果可以有效避免低IoU对象的性能下降。最终，HQTrack在排名中位居第二。

可视化

HQTrack是一种强大的目标跟踪算法，能够稳定地处理长期跟踪、多目标跟踪和大量干扰物的情况。HQ-SAM可以在面对外观变化、快速运动和尺度变化等挑战时，准确地分割目标对象的掩码。图2展示了HQTrack在挑战性视频序列中的代表性视觉结果。

总结

本报告提出了高质量跟踪（HQTrack）的概念，主要包括视频多目标分割器（VMOS）和掩模细化器（MR）。VMOS负责在视频帧中传播多个目标，MR是一个大规模预训练的分割模型，负责细化分割掩模。HQTrack展示了强大的目标跟踪和分割能力。最终，HQTrack在视觉目标跟踪和分割（VOTS2023）挑战中获得第二名。

▌关于我们

灵度智能，我们致力于提供优质的AI服务，涵盖人工智能、数据分析、机器学习、深度学习、强化学习、计算机视觉、自然语言处理、语音处理等领域。提供AI课程、AI算法代做、论文复现、远程调试等服务。如有相关需求，请私信与我们联系。

我们的愿景通过创新创意和智能技术为客户提供卓越的解决方案，助力产业升级和数字化转型。我们的产品和服务将引领行业标准，创造卓越的用户体验。我们的团队致力于创造更智能、更便捷和更高效的生活方式，推动社会进步，致力于创造更美好的未来。

淘宝店铺：公众号后台回复“淘宝”获取店铺地址

商务合作：发送邮件至lingdu_tech@163.com邮箱

关注【灵度智能】公众号，获取更多AI资讯。

继续滑动看下一个

灵度智能

向上滑动看下一个

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

HQTrack | 阿里达摩院 & 大连理工联合发布 AI 框架 | 实现高精度视频多目标跟踪

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

HQTrack | 阿里达摩院 & 大连理工联合发布 AI 框架 | 实现高精度视频多目标跟踪

您可能也对以下帖子感兴趣